智能论文笔记

AutoWS-Bench-101: Benchmarking Automated Weak Supervision with 100 Labels

Nicholas Roberts , Xintong Li , Tzu-Heng Huang , Dyah Adila , Spencer Schoenberg , Cheng-Yu Liu , Lauren Pick , Haotian Ma , Aws Albarghouthi , Frederic Sala

分类：机器学习 | 人工智能 | 计算机视觉 | (统计)机器学习

2022-08-30

弱监督（WS）是一种有力的方法，可以构建标记的数据集，面对几乎没有标记的数据，用于培训监督模型。它用标签函数（LFS）表达的多个嘈杂但廉价标签的估计取代了手持标签数据。尽管它已成功地用于许多域中，但弱监督的应用程序范围受到构造具有复杂或高维特征的域的标记功能的困难。为了解决这个问题，少数方法提出了使用一小部分地面真实标签自动化LF设计过程的方法。在这项工作中，我们介绍了aettos-bench-101：在挑战WS设置中评估自动化WS（autows）技术的框架 - 以前难以或不可能应用传统的WS技术是一组不同的应用程序域。虽然AtoW是扩展WS应用程序范围的有希望的方向，但诸如零击基础模型之类的强大方法的出现揭示了需要了解介绍技术如何与现代零射击或几次学习者进行比较或合作。这为autows-bench-101的中心问题提供了信息：给定每个任务的初始集100个标签，我们询问从业者是否应使用autows方法生成其他标签或使用一些简单的基线，例如来自基础模型或监督学习。我们观察到，在许多情况下，如果启动方法要超越基础模型的信号，则有必要超越简单的几个基线，而autows bench-101可以促进该方向的未来研究。我们以详尽的介绍方法进行彻底消融研究。

translated by 谷歌翻译

HTML版本

数据集通常由于人为错误和社会偏见而包含不准确性，这些不准确性会影响在此类数据集上训练的模型的结果。我们提出了一种用于证明线性回归模型是否在训练数据集中标记偏差的技术，即是否将扰动与培训数据集的标签有界化导致改变测试点预测的模型。我们展示了如何为单个测试点确切解决此问题，并提供了一种近似但更可扩展的方法，该方法不需要提前了解测试点。我们广泛评估这两种技术，并发现基于回归和分类的线性模型通常显示出高水平的偏见。但是，我们还发现了偏见的差距，例如某些数据集上某些偏差假设的高水平的非舒适性。总体而言，我们的方法可以作为何时信任或提问模型的输出的指南。

translated by 谷歌翻译